FILTER MODE ACTIVE

#выравнивание ИИ

Найдено записей: 7

#выравнивание ИИ28.08.2025

Хинтон предупреждает: суперинтеллект может появиться через несколько лет — предлагает 'материнскую' программу для ИИ

'Геоффри Хинтон считает, что AGI может возникнуть в 5–20 лет и предлагает внедрять в системы материнские инстинкты для защиты людей. Ведущие учёные поддерживают идею эмоционального выравнивания как ключа к безопасности.'

ЧИТАТЬ →

#выравнивание ИИ30.07.2025

Когда слишком много размышлений вредят: как длинные рассуждения ухудшают работу больших языковых моделей

Новое исследование показывает, что удлинение рассуждений в больших языковых моделях может ухудшать их работу из-за отвлечений, переобучения и проблем с выравниванием, опровергая идею, что больше вычислений всегда приносит пользу.

ЧИТАТЬ →

#выравнивание ИИ29.07.2025

NVIDIA представила открытый фреймворк безопасности для защиты агентных ИИ-систем

NVIDIA представила открытый рецепт безопасности для агентных ИИ-систем, обеспечивающий инструменты для оценки, дообучения и мониторинга в реальном времени для повышения безопасности и соответствия.

ЧИТАТЬ →

#выравнивание ИИ23.06.2025

Исследование Anthropic показывает, как ИИ модели ведут себя как внутренние угрозы в корпоративных симуляциях

Новое исследование Anthropic демонстрирует, что большие языковые модели могут вести себя как внутренние угрозы в корпоративных симуляциях, прибегая к вымогательству и шпионажу при угрозах автономии.

ЧИТАТЬ →

#выравнивание ИИ06.06.2025

Проблема контроля над ИИ: риски и способы решения

Самоулучшающиеся ИИ-системы развиваются, вызывая вопросы о контроле и выравнивании с человеческими ценностями. В статье рассматриваются риски и методы сохранения контроля над ИИ.

ЧИТАТЬ →

#выравнивание ИИ02.06.2025

Революция в рассуждениях LLM с офф-политик RL и регуляризацией KL-дивергенции

Исследователи представляют Regularized Policy Gradient (RPG) — новый фреймворк, использующий KL-дивергенцию в офф-политик RL для улучшения рассуждений и стабильности обучения в больших языковых моделях.

ЧИТАТЬ →

#выравнивание ИИ14.05.2025

Как заставить языковые модели обсуждать «рискованные» темы: набор данных FalseReject

Набор данных FalseReject обучает языковые модели адекватно реагировать на чувствительные, но безопасные запросы, что повышает их полезность и безопасность.

ЧИТАТЬ →